专业 激情 持久 卓越
好文推荐
当前位置: 首页 > 开放资源 > 好文推荐

【CVPR】MixSTE-Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video

发布日期:2022-05-15     返回

MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video

分享人:蔡家伦
研究方向:3D人体姿态估计
论文题目:MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video
论文作者:Jinlu Zhang, Zhigang Tu, Jianyu Yang, Yujin Chen, Junson Yuan
作者单位:武汉大学、苏州大学、慕尼黑工业大学、布法罗大学
论文摘要:最近的基于transformer的解决方案主要通过考虑全局所有帧之间的身体关节来学习时空相关性,以此来从2D关键点序列估计3D人体姿势。我们观察到不同关节的运动存在显着差异。然而,之前的工作不能有效地模拟每个关节的实体帧间对应关系,这将导致时空相关性的学习不足。为此我们提出了MixSTE(混合时空transformer模型),它有一个时间transformer块来建模每个关节的时间运动和一个空间transformer块来学习关节间的空间相关性。这两个块交替使用以获得更好的时空特征编码。此外,网络输出从中心帧扩展到输入视频的整个帧,从而提高了输入和输出序列之间的连贯性。在三个基准(Human3.6M、MPI-INF-3DHP和HumanEva)上进行了充分的实验来评估所提出的方法。结果表明,我们的模型在Human3.6M数据集上相较于最先进的方法在 P-MPJPE上提升了10.9%和在MPJPE上提升了7.6%。代码可在我们的补充材料中找到。
原文链接

点击此处